APPEARED

Rows

Histograma

Densidad

Boxplot

Q-Q

Rows

Conclusiones

Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:

  • El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos."

  • Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos

Datos

LAST ACTIVITY

Rows

Histograma

Densidad

Boxplot

Q-Q

Rows

Conclusiones

Teniendo en cuenta las graficas de la variable ‘lastActivity’ podemos inferir que:

  • Tanto el histograma como el gráfico de densidad exhiben un sesgo hacia la derecha, lo que indica una clara asimetría en la distribución de los datos y una cola más larga hacia los valores superiores, evidenciando que la distribución no es normal, afirmacion que es ratficada en el grafico Q-Q

  • Por otro lado, aunque el Boxplot no muestra valores atípicos, sí revela un sesgo hacia los valores altos de la variable.

Datos

NUMBER OF USERS

Rows

Histograma

Densidad

Boxplot

Q-Q

Rows

Conclusiones

Considerando las gráficas analizadas, se puede concluir que la variable ‘numberOfUser’ exhibe características distintivas:

  • Tanto el gráfico Q-Q como el Boxplot revelan la existencia de numerosos valores atípicos (outliers). Esta observación sugiere que los datos presentan una gran variabilidad y no se distribuyen normalmente, ya que los valores extremos afectan la normalidad de la distribución.

  • Además, el histograma y el gráfico de densidad muestran un sesgo notable hacia la izquierda. Este sesgo indica que hay una concentración significativa de valores en el extremo inferior de la escala, lo que contribuye aún más a la falta de normalidad en los datos.

Datos

TYPE

Rows

Grafico de barras

Rows

Conclusiones

En este análisis de la variable “type” en nuestro conjunto de datos, se identifico patrones y tendencias significativas que arrojan luz sobre la composicion de esta misma. Destaca en gran medida la presencia de la categoría “pl”,es decir, lenguaje de programacion que constituye la categoría dominante con una frecuencia absoluta de 1660 elementos, representando aproximadamente el 77.61% del conjunto lo cual nos dice su concurrencia en toda la base datos y lo importancia en la misma.

Datos

COUNTRY

Rows

Grafico de torta

Rows

Conclusiones

se observa una distribución diversa de países de origen entre los elementos de nuestro conjunto. Entre los países más representados, destacan Estados Unidos, Reino Unido y Canadá, que juntos conforman la mayoría de las entradas. Esto sugiere que nuestro conjunto de datos tiene una fuerte presencia de elementos relacionados con estas tres naciones.

La categoría más frecuente es “United States” (Estados Unidos), con una frecuencia absoluta de 1494, lo que representa aproximadamente el 69.85% del conjunto de datos en términos de procedencia geográfica. Le sigue “United Kingdom” (Reino Unido) con una frecuencia absoluta de 85 y “Canada” (Canadá) con 69.

Datos

WEBSITE

Rows

Grafico de barras

Rows

Conclusiones

Basado en los resultados de la tabla de frecuencia absoluta y relativa de la variable “website”, se puede concluir que la mayoría de los lenguajes de programación en nuestro conjunto de datos tienen un sitio web asociado. Específicamente, el 67.42% de los lenguajes de programación no tienen un sitio web, mientras que el 32.59% si lo tienen.

Esto sugiere que no hay tanta presencia de sitios web asociados a los lenguajes de programacion no es común entre los lenguajes de programación en el conjunto de datos. La existencia de sitios web puede ser un indicador de la accesibilidad y disponibilidad de información adicional sobre estos lenguajes, lo que puede ser valioso para los desarrolladores y la comunidad en general.

Datos

TABLAS DE CONTINGENCIA

Rows

Tablas de contigencia 1

Argentina Australia Austria Belgium Brazil Canada China Czech Republic Denmark England Finland France Germany India Israel Italy Japan Netherlands New Zealand Norway Poland Russia Scotland Spain Sweden Switzerland United Kingdom United States unknown Unknown Various
application 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 0 1 0 0 1 39 1 3 3
binaryDataFormat 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 16 0 0 6
database 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 17 0 0 0
dataNotation 0 1 0 0 0 1 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 3 25 0 0 1
editor 0 1 0 0 0 1 1 2 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 23 0 0 4
esolang 0 3 0 0 0 1 0 0 0 1 0 1 2 2 1 0 0 0 0 0 1 0 0 0 0 0 1 17 0 4 0
grammarLanguage 1 2 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 1 0 0 0 0 1 0 0 22 0 0 2
library 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 11 0 0 4
packageManager 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 18 0 2 4
pl 1 18 6 5 9 58 5 3 11 10 5 38 47 3 6 24 22 4 5 6 8 9 3 2 17 20 76 1147 0 58 34
protocol 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 20 0 0 0
queryLanguage 0 0 0 0 0 0 0 0 0 0 1 0 2 0 0 0 0 0 0 1 0 0 0 0 0 0 0 37 0 2 1
template 1 0 0 0 0 1 0 1 0 1 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 18 0 1 4
textDataFormat 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 17 0 2 1
textMarkup 0 1 0 1 0 3 0 1 0 0 0 1 3 0 0 0 1 1 0 0 0 0 0 0 0 1 1 38 0 4 2
xmlFormat 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 29 0 0 1

Tabla de contigencia 2

NO YES
Argentina 0 3
Australia 18 8
Austria 5 1
Belgium 2 4
Brazil 5 5
Canada 39 30
China 3 3
Czech Republic 2 5
Denmark 8 3
England 10 5
Finland 3 4
France 29 13
Germany 45 18
India 0 5
Israel 5 2
Italy 17 7
Japan 18 5
Netherlands 3 3
New Zealand 5 0
Norway 6 2
Poland 6 4
Russia 2 7
Scotland 3 0
Spain 0 4
Sweden 11 7
Switzerland 19 4
United Kingdom 62 23
United States 1065 429
unknown 0 1
Unknown 31 45
Various 20 47

Tabla de contingencia 3

NO YES
application 23 28
binaryDataFormat 15 9
database 15 4
dataNotation 21 14
editor 16 18
esolang 18 16
grammarLanguage 21 11
library 1 16
packageManager 1 25
pl 1184 476
protocol 16 5
queryLanguage 27 17
template 12 17
textDataFormat 18 5
textMarkup 25 33
xmlFormat 29 3

Pregunta 1

Rows

Intervalos de confianza para la media

Rows

Pregunta problema

Se tiene una base de datos con los años de aparición de los lenguajes de programación entre los años 1960 y 2023, los cuales presentan una desviación estándar de 16.28. Si se tiene una muestra aleatoria de 2139 lenguajes, los cuales en promedio aparecieron en el año 1996.63, calcule un intervalo de confianza del 90% para el verdadero año de aparición medio de los lenguajes de programación

Respuesta

  • Para la respuesta dada, se uso un script de r para la estimacion del intervalo de confianza de la media poblacional, teniendo conocimento de la desviacion tipica de la poblacion de la variable appeared. luego para tener evidencia visual de los resultados se genero un intervalo sobre una grafica

  • Podemos concluir que con un nivel de confianza del 90% la media poblacional del año de aparicion de los lenguajes de programcion de nuestra base de datos se encuentra entre los valores de 1996.05 y 1997.21